Neural networks can be trained to solve regression problems by using gradient-based methods to minimize the square loss. However, practitioners often prefer to reformulate regression as a classification problem, observing that training on the cross entropy loss results in better performance. By focusing on two-layer ReLU networks, which can be fully characterized by measures over their feature space, we explore how the implicit bias induced by gradient-based optimization could partly explain the above phenomenon. We provide theoretical evidence that the regression formulation yields a measure whose support can differ greatly from that for classification, in the case of one-dimensional data. Our proposed optimal supports correspond directly to the features learned by the input layer of the network. The different nature of these supports sheds light on possible optimization difficulties the square loss could encounter during training, and we present empirical results illustrating this phenomenon.
translated by 谷歌翻译
研究随机噪声的特性以优化复杂的非凸函数一直是机器学习领域的活跃研究领域。先前的工作表明,随机梯度下降的噪声通过克服景观中的不良障碍来改善优化。此外,注射人造高斯噪音已成为快速逃脱鞍点的流行想法。确实,在没有可靠的梯度信息的情况下,噪声用于探索景观,但目前尚不清楚哪种类型的噪声在探索能力方面是最佳的。为了在我们的知识上缩小这一差距,我们基于布朗尼运动的一般类型的连续时间非马克维亚过程,该过程允许该过程的相关性增加。这将基于布朗运动(例如Ornstein-Uhlenbeck过程)进行概括。我们演示了如何离散此类过程,从而导致新算法FPGD。该方法是已知算法PGD和抗PGD的概括。我们在理论上和经验上都研究了FPGD的特性,表明它具有勘探能力,在某些情况下,它比PGD和抗PGD有利。这些结果为利用噪声用于训练机器学习模型的新颖方式开辟了领域。
translated by 谷歌翻译
我们考虑了香农相对熵的扩展,称为F-Diverence。通常与这些差异相关的三个经典计算问题:(a)从矩,(b)计算归一化积分的估计,以及(c)概率模型中的变异推断。这些问题是通过凸双重性相互关联的,对于所有这些问题,在整个数据科学中都有许多应用程序,我们旨在实现可在计算上可触及的近似算法,以保留原始问题的性质,例如潜在的凸度或单调性。为了实现这一目标,我们得出了一系列凸松弛序列,用于计算与给定特征向量相关的非中心协方差矩阵这些差异:从典型的最佳最佳下限开始,我们考虑基于基于'的额外弛豫。现在可以在多项式时间内作为半决赛程序进行计算,以及基于量子信息理论的频谱信息差异的进一步计算更有效的放松。对于上述所有任务,除了提出新的放松外,我们还基于增强的Lagrangian和一阶方法得出可拖动算法,并且我们介绍了有关Boolean Hypercube上多元三角多项式和功能的插图。
translated by 谷歌翻译
当任何延迟较大时,异步随机梯度下降(SGD)的现有分析显着降低,给人的印象是性能主要取决于延迟。相反,无论梯度中的延迟如何,我们都证明,我们可以更好地保证相同的异步SGD算法,而不是仅取决于用于实现算法的平行设备的数量。我们的保证严格比现有分析要好,我们还认为,异步SGD在我们考虑的设置中优于同步Minibatch SGD。为了进行分析,我们介绍了基于“虚拟迭代”和延迟自适应步骤的新颖递归,这使我们能够为凸面和非凸面目标得出最先进的保证。
translated by 谷歌翻译
在梯度下降中注入噪声具有几个理想的特征。在本文中,我们在计算梯度步骤之前探索噪声注入,该梯度步骤已知具有平滑和正规化的特性。我们表明,小扰动会导致基于L1-norm,L1-Norms或核规范的简单有限维模型的显式正则化。当应用于具有较大宽度的过多散热性神经网络时,我们表明,由于过多参数化导致的方差爆炸,相同的扰动无效。但是,我们还表明,独立的层扰动允许避免爆炸差异项,然后可以获得显式正则化器。我们从经验上表明,与香草(随机)梯度下降训练相比,小的扰动可以提高泛化性能,对训练程序进行了较小的调整。
translated by 谷歌翻译
The workhorse of machine learning is stochastic gradient descent. To access stochastic gradients, it is common to consider iteratively input/output pairs of a training dataset. Interestingly, it appears that one does not need full supervision to access stochastic gradients, which is the main motivation of this paper. After formalizing the "active labeling" problem, which focuses on active learning with partial supervision, we provide a streaming technique that provably minimizes the ratio of generalization error over the number of samples. We illustrate our technique in depth for robust regression.
translated by 谷歌翻译
为了了解深度在神经网络中的基本作用,我们研究了深度的变异原理:增加深度是否对神经网络中的表示进行隐式优化?我们证明,配备批处理标准化的随机神经网络假设表示为缩合,则最大程度地提高了代表的差分熵,深度为恒定因素。因此,在没有有关学习任务的信息的情况下,在初始化时固有地遵守\ textit {最大熵的原理}。我们针对神经表示的变异表述表征了表示熵和结构组件之间的相互作用,包括深度,宽度和非线性激活,从而有可能启发神经体系结构的设计。
translated by 谷歌翻译
我们考虑通过复制内核希尔伯特空间的相关协方差操作员对概率分布进行分析。我们表明,冯·诺伊曼(Von Neumann)的熵和这些操作员的相对熵与香农熵和相对熵的通常概念密切相关,并具有许多特性。它们与来自概率分布的各种口径的有效估计算法结合在一起。我们还考虑了产品空间,并表明对于张量产品内核,我们可以定义互信息和联合熵的概念,然后可以完美地表征独立性,但只能部分条件独立。我们最终展示了这些新的相对熵概念如何导致对数分区函数的新上限,这些函数可以与变异推理方法中的凸优化一起使用,从而提供了新的概率推理方法家族。
translated by 谷歌翻译
我们考虑使用时间差异学习算法进行连续时间过程的政策评估问题。更确切地说,从随机微分方程的时间离散化,我们打算使用TD(0)学习连续的值函数。首先,我们证明标准TD(0)算法注定要失败,因为动力学的随机部分由于时间步骤趋于零。然后,我们提出对时间差的添加零均值校正,使其相对于消失的时间步骤进行稳健。我们提出了两种算法:第一种算法是基于模型的,因为它需要了解动力学的漂移函数。第二个是无模型的。我们证明了基于模型的算法在两个不同的方案中的线性参数化假设下与连续时间解的收敛性:一个具有问题的凸正则化;第二次使用具有恒定步长且无正则化的Polyak-juditsy平均方法。在后一种方案中获得的收敛速率与最简单的使用随机梯度下降方法的线性回归问题相媲美。从完全不同的角度来看,我们的方法可以应用于使用机器学习以非发散形式求解二阶椭圆方程。
translated by 谷歌翻译
最近表明,在光滑状态下,可以通过吸引统计误差上限可以有效地计算两个分布之间的平方Wasserstein距离。然而,而不是距离本身,生成建模等应用的感兴趣对象是底层的最佳运输地图。因此,需要为估计的地图本身获得计算和统计保证。在本文中,我们提出了第一种统计$ L ^ 2 $错误的第一批量算法几乎匹配了现有的最低限度用于平滑地图估计。我们的方法是基于解决具有无限尺寸的平方和重构的最佳运输的半双向配方,并导致样品数量的无尺寸多项式速率的算法,具有潜在指数的维度依赖性常数。
translated by 谷歌翻译